Un vistazo al estado actual de la reproducibilidad en el ámbito científico.
Replicabilidad.
Definición e ilustración del concepto de replicabilidad.
Causas de la crisis de replicabilidad.
Abordaje de la replicabilidad.
7 de junio de 2017
Un vistazo al estado actual de la reproducibilidad en el ámbito científico.
Replicabilidad.
Definición e ilustración del concepto de replicabilidad.
Causas de la crisis de replicabilidad.
Abordaje de la replicabilidad.
Se establece Associated Editor for Reproducibility.
Evaluación de reproducibilidad tras aceptación de trabajos.
Distintos sellos de reproducibilidad de trabajos:
D=Data.
C=Code.
R=Reproducibility (D + C + Verificacion de resultados).
Editorial de Journal of the American Statistical Association sobre reproducibilidad (Julio de 2016)
Se requiere aportar código y datos. Código será específicamente evaluado durante el proceso de revisión por uno de los revisores.
Editoriales sobre diseminación de código (Octubre 2014), de datos (Septiembre 2016) y un manifiesto a favor (Enero 2017).
Se requiere reportar disponibilidad de códigos e instrucciones de uso.
Se requiere especificar si los datos del estudio son accesibles y de qué forma.
Promueve la publicación y cita de fuentes de datos de la misma forma que se citan otros estudios previos de la literatura.
Reproducibilidad es más controvertida en el ámbito médico.
Editorial de Enero de 2016.
Se asocia la diseminación de datos con la proliferación de "investigadores parásitos".
Se prevé "posible robo de la productividad planeada de los recolectores de datos".
El editorial genera enorme controversia y duras críticas en tan sólo horas.
Las críticas obligan a NEJM a publicar un segundo editorial en apenas 4 dias.
Comprometen a los autores a compartir datos en 6 meses desde publicación (medida propuesta por el ICMJE, International Comittee of Medical Journal Editors).
Apela a la obligación moral con los sujetos de estudio de los ensayos clínicos.
La Academia Nacional de Medicina (EEUU) formula recomendaciones para el desarrollo de tests de enfermedades basados en datos ómicos.
Entre sus recomendaciones: Publicar datos y metadatos utilizados. Compartir código y procedimientos computacionales utilizados, en particular los asociados al preproceso de los datos.
El National Cancer Institutes (NCI) acoge este informe desarrollando una lista de OBLIGADO CUMPLIMIENTO para las propuestas de financiación basadas en datos ómicos.
El NIH "sugiere" que los datos sean tan accesibles como sea posible.
Obligación de incluir planes de data sharing para propuestas de financiación de más de 500.000 dolares.
Reproducibilidad consiste en facilitar transparencia de materiales (datos) y procesos (código) en la investigación científica.
Revistas y agencias financiadoras parecen estar tomando ya cartas en el asunto.
Revistas no empiezan a dar por bueno hermetismo en cuanto a datos y códigos.
Agencias financiadoras no admiten que datos de estudios que financien benficien sólo a destinatarios de las ayudas.
Reproducibilidad es un tsunami que se nos viene encima y va a cambiar nuestra forma de trabajar y compartir nuestro trabajo.
Adaptemos nuestras prácticas para adaptarnos a esta situación que requerirá cambios en nuestras dinámicas de trabajo.
Reproducibilidad: Mismos datos, distintos experimentadores, resultados iguales (presumiblemente) -> Transparencia de procesos.
Replicabilidad: Distintos datos, similares condiciones experimentales, resultados similares (constatables) -> Generabilidad de los resultados.
Reproducibilidad y replicabilidad son dos conceptos a menudo confundidos en la literatura.
En ningún caso reproducibilidad indica corrección de los resultados. "Results that are not reproducible are hard to verify and results that do not replicate in new studies are harder to trust."
Las crisis de reproducibilidad y replicabilidad han dado lugar a un campo de investigación emergente, metaciencia, que se encarga del estudio científico de la ciencia en sí misma y los factores que influyen en la validez de sus resultados.
Ioannidis (JAMA, 2005) lleva a cabo un estudio de replicación de trabajos publicados entre 1990 y 2003 en New England, JAMA, Lancet o revistas médicas especializadas con IF>7.
Criterio de inclusión: número de citas hasta agosto de 2004>1000 (análisis paralelo para artículos con menos citas). Se excluyen meta-análisis, revisiones, …
Busqueda bibliográfica de estudios similares, con criterios de calidad (tamaño muestral, diseño, …) similares o superiores, que pudieran corroborar o refutar dichos estudios.
Los 49 artículos encontrados como elegibles, se clasifican como:
41.2%(=14/34) de los estudios testados, con efectos positivos, son refutados por estudios de similares características.
Los ensayos clínicos aleatorizados mostraron menor tasa de discrepancias (Contradicted+Initially stronger effects), 9 de 39(=23.1%), que el resto de estudios, 5 de 6(=83.3%).
Entre los ensayos clínicos aleatorizados:
En el estudio de trabajos con menos citas los resultados son similares: 10 de 30(=33.3%) estudios (corroborables) fueron refutados.
En 2015 (Science), el Center for Open Science publica los resultados de un estudio colaborativo de replicación en psicología.
Mayor esfuerzo de replicabilidad llevado a cabo hasta la fecha. "One of the top 10 scientific breakthroughs of the year (Science)"
Distintos grupos de forma independiente replican 100 estudios publicados en la literatura (artículos de 2008 en revistas influyentes).
A diferencia del estudio de Ioannidis, este estudio replica especificamente los estudios de la literatura (evidencia empírica).
39 de los 100 estudios corroboran los resultados originales.
El problema podría ser todavía peor ya que se trata de estudios en revistas "de prestigio".
Sólo parte de los estudios replicados parecen reproducir los efectos originales.
El efecto promedio de los estudios replicados fue sólo la mitad de lo publicado originalmente.
Pero ni siquiera la publicación de replicas positivas de trabajos es garantía de nada.
Facciones asimétricas se consideran signo de mutaciones genéticas.
Moller (Nature, 1991) descubre que hembras de golondrinas prefieren machos con plumaje más simétrico.
Simetría de plumaje sería indicador indirecto de calidad genética.
Hembras aplican este criterio (mecanismo de selección natural) de forma inconsciente.
En los 3 años siguientes 9 (de 10) artículos corroboran la teoría anterior.
Dicha teoría se estudia en humanos:
Pero:
Tras proponerse un paradigma, los procesos de publicación científica tienden a corroborarlo (sesgo de publicación). Años después los incentivos editoriales cambian difundiendo aquellos resultados que desaprueban el paradigma establecido.
Decline effect ha sido documentado en muchas más situaciones:
Decline effect es una expresión más de la crisis de replicabilidad.
fMRI ha sido la herramienta principal para estudiar la funcionalidad de cada región cerebral.
Habitualmente, individuos se someten a estímulos y, mediante resonancia magnética, se determinan las regiones del cerebro con mayor consumo de hemoglobina tras dicho estímulo.
Dichas áreas teóricamente serían las encargadas de procesar y asimilar el estímulo.
Habitualmente este tipo de estudios tiene diseño de casos y controles.
"fMRI is 25 years old, yet surprisingly its most common statistical methods have not been validated using real data. Here, we used resting-state fMRI data from 499 healthy controls to conduct 3 million task group analyses. Using this null data with different experimental designs, we estimate the incidence of significant results. In theory, we should find 5% false positives (for a significance threshold of 5%), but instead we found that the most common software packages for fMRI analysis (SPM, FSL, AFNI) can result in false-positive rates of up to 70%. These results question the validity of a number of fMRI studies and may have a large impact on the interpretation of weakly significant neuroimaging results."
El tratamiento de la dependencia espacial empleado en los 3 paquetes de software estudiado no ajusta de forma adecuada la correlación espacial, disparando el número de falsos positivos.
Este trabajo ha supuesto un auténtico terremoto dentro del campo de fMRI.
Conflictos de intereses distorsionan la literatura científica, sesgando la literatura científica en direcciones interesadas.
No se pública en función de la evidencia sino de la conveniencia.
Conflictos de interés están, en parte, detrás de la crisis de replicabilidad.
Tipos de conflictos de interés en publicaciones científicas:
Investigación científica ofrece un estupendo argumento a decisiones o intereses arbitrarios que de otra forma serían difíciles de justificar.
La aureola de veracidad de la ciencia legitima decisiones políticas y sociales ("evidence based policy") o intereses comerciales.
Grupos de presión, asociaciones, lobbies … buscan sustento en literatura científica.
El problema surge cuando la ciencia no se usa para guiar las decisiones sino para justificarlas.
"Scientists working in the policy arena are often naïve about the impact of their findings"
"Instituto Danone para la Nutrición y la Salud" ofrece ayudas a la investigación:
Leyendo la convocatoria con más detalle uno se de cuenta:
Financiación se destina a estudiar propiedades beneficiosas de sus productos (para que posiblemente engrosen la literatura científica).
La intencionalidad de estos estudios es evidente. Se busca sustento no conocimiento.
Actimel es uno de los productos estrellas de Danone con una facturación anual de alrededor de 5300 millones de dolares (25% de la facturación del grupo).
Se trata de un alimento funcional con unas supuestas propiedades beneficiosas para la salud ("mejora tus defensas").
Su principal propiedad, reducción de diarreas, se atribuye a la presencia de una cepa patentada de Lactobacilus Casei Imunitass .
Sus efectos positivos se sustentan (supuestamente) en literatura científica generada al efecto. De ahí la importancia comercial de disponer de literatura científica que permita aducir estas propiedades.
La European Food Safety Administration (EFSA) emite en 2010 un informe sobre los efectos de este producto sobre la salud.
El informe "rechazó los más de 20 trabajos de investigación que pretendían avalar los beneficios del Actimel".
La EFSA destaca errores repetidos de procedimiento en los estudios evaluados.
Las propiedades beneficiosas publicitadas de Actimel, y otros prebióticos, se sostienen (y por tanto permiten) sólo por la presencia de vitamina B6 en su composición (aunque su dosis es, por ejemplo, un tercio inferior a la de un plátano).
En cualquier caso el halo ilusorio de credibilidad de la ciencia sigue presente en el producto.
La ciencia vive una proliferación "industrial" de datos y de publicaciones que los explotan. Producción científica tratada como producto de consumo disminuye su calidad.
El sistema académico considera el número de publicaciones como uno de sus principales parámetros para valorar a sus integrantes. Científicos son en gran parte evaluados por su volumen de publicaciones.
Sería conveniente poner el foco en la calidad de las publicaciones más que en su cantidad.
La presión, o simplemente el interés, por publicar supone un claro conflicto de interés (más allá de lo económico) de todas las publicaciones.
Además, las revistas exigen resultados novedosos: "Results need to be exciting, eye-catching, even implausible … When we review papers we're often making authors prove that their findings are novel or interesting. We're not making them prove that their finding are true"
Esta presión se vive fundamentalmente en aquellas revistas de mayor impacto, aquellas que influyen en mayor medida en la literatura.
Si los datos pueden hablar por sí solos también pueden ser torturados hasta que confiesen …
No todos los estudios ven la luz de la publicación científica con la misma probabilidad.
Resultados no significativos, o en contra de la hipótesis inicial de los investigadores, tienden a no ser publicados. Este efecto se conocer como "file drawer problem".
Este efecto puede alterar el corpus bibliográfico ocultando parte de la evidencia científica disponible y por tanto sesgando el conocimiento acumulado en ciertas áreas de investigación.
Sesgo de publicación y el decline effect: "Another reason may be the publication bias: scientists and scientific journals prefer to publish positive results of experiments and tests over null results, especially with new ideas. As a result, the journals may refuse to publish papers that do not prove that the idea works. Later, when an idea is accepted, journals may refuse to publish papers that support it."
Revisión sistemática de la literatura sobre la efectividad de acupuntura, de 1966 a 1995, para un grupo de paises (Vickers et al., 1998).
Los paises asíaticos reportan resultados significativamente favorables a la acupuntura en 61 de 63 estudios (96.8%).
Paises no asiáticos reportan resultados significativamente favorables a la acupuntura en 110 de 191 estudios (57.6%).
Conflictos de intereses también producen sesgos de publicación evidentes.
Es el fenómeno estadístico por el que los individuos con observaciones extremas tenderán a estar más cerca a la media de la población en posteriores observaciones.
Este fenómeno de "regresar" hacia la media dio nombre originalmente a los modelos de regresión.
Estudios son muestras de tamaño 1 del universo de posibles estudios. Sacamos conclusiones a partir de una única muestra.
Tomando una muestra lo suficientemente extrema podremos demostrar virtualmente cualquier resultado. Un 5% de las muestras posibles, simplemente por azar, nos deberían dar un resultado significativo (aunque no existiera efecto).
Así, muchos hallazgos "significativos" pueden ser simplemente outliers estadísticos (muestras suficientemente anómalas) que al intentar ser replicados pierden su excepcionalidad.
Regresión a la media podría estar también detrás del decline effect:
-Conflictos de intereses hacen que outliers estadísticos no pasen desapercibidos y acaben publicados.
-Sesgo de publicación evita que dichos resultados anómalos sean contrarestados inicialmente, aunque sí posteriormente cuando ya no son tan novedosos.
Procedimiento adoptado de ensayos clínicos: todos los procedimientos de análisis han de ser declarados de antemano a la recolección de datos de análisis. Center for Open Science, por ejemplo, ofrece esta posibilidad.
Una vez aprobado el registro previo del estudio por un grupo de evaluadores se garantiza la publicación de los resultados del estudio.
Triple objetivo:
Estudios de replicación son menos atractivos que estudios originales.
Revistas deberían promover estudios de replicación para vigilar la calidad de sus contenidos.
Propuesta de base de datos open-access de resultados negativos.
Revistas específicas dedicadas a la publicación de resultados negativos:
La introducción de replicabilidad en la agenda de las agencias de financiación puede hacer significar una gran diferencia. "A mere 3% of scientific funding devoted to replication could make a big difference. The current amount is, he says, near zero" (Nature, 2015).
The Netherlands Organisation for Scientific Research en 2016 ha lanzado una línea de financiación específica para replicar estudios de gran impacto en ciencias sociales y salud.
Sociedades científicas (o las propias revistas científicas) podrían también incentivar/premiar estudios de replicación de sus actividades, revistas que auspician … Serían las más interesadas en validar la literatura del campo correspondiente.
Replicación poco agradecida. Todos preferimos un esfuerzo creativo más que confirmatorio de los resultados de otros investigadores. Este hecho debería ser combatido en bien de la propia ciencia.
Resulta necesario transmitir a futuros investigadores la importancia de replicar estudios frente al desarrollo de investigación. Replicación es tarea que nos compete a todos.
Sugerencias de promoción de trabajos de replicabilidad en Trabajos de Fin de Máster con caracter multicéntrico o multidisciplinar.
En materia de replicabilidad, como en tantos otros temas, "lo difícil no es llegar si no mantenerse".
Se pretende la generación de resultados sólidos que "pasen el test del tiempo" ("Many scientific results will not stand the test of time", Editorial de JASA).
El método científico debería dar las bases para que así sea aunque, por desgracia, en el entente actual es menos efectivo de lo deseable.